其他
机器学习 | 新手的十大算法导览
本文转载自公众号新机器视觉
作者:王抒伟
所以尝试的算法必须适合要解决的问题,这才是选择正确的机器学习任务的来源。
1. 线性回归
线性回归可能是统计和机器学习中最著名和最易理解的算法之一。主要与最小化模型的误差或做出尽可能准确的预测有关,但以可解释性为代价。我们将从许多不同领域(包括统计数据)中学习。线性回归的表示法是一个方程,该方程通过找到称为系数(B),来描述输入变量(x)与输出变量(y)之间关系的线。给定输入x,我们将预测y,线性回归学习算法的目标是找到系数B0和B1的值, 例如用于普通最小二乘法和梯度下降优化的线性代数解。
2. LOGISTIC回归
逻辑回归是机器学习从统计领域“借”的另一种技术。它是二分类问题(具有两个类值的问题)的首选方法。Logistic回归类似于线性回归,因为目标是找到权重每个输入变量的系数的值。与线性回归不同,输出的预测使用称为对数函数的非线性函数进行变换。逻辑函数看起来像一个大S,它将任何值转换为0到1的范围。因为我们可以将规则应用于逻辑函数的输出为0和1(例如,如果IF小于0.5,则输出1)并预测类别值。3. 线性判别分析
Logistic回归是传统上仅限于两类分类问题的分类算法。如果是多分类,则线性判别分析算法(LDA)就是很重要的算法了。LDA的表示非常简单,它由数据的统计属性组成,这些属性是针对每个类别计算的。对于单个输入变量,这包括:每个类别的平均值。 计算所有类别的方差
该算法的前提是:数据具有高斯分布(钟形曲线),因此最好在操作之前从数据中删除异常值。
4. 分类和回归树
决策树是用于预测建模机器学习的重要算法类型。决策树模型的表示形式是二叉树。这是来自算法和数据结构的二叉树,没有什么花哨的。每个节点代表一个输入变量(x)和该变量的分割点(假设变量是数字)。
5-朴素贝叶斯
朴素贝叶斯(Naive Bayes)是一种简单但功能强大的预测建模算法。该模型由两种类型的概率组成,可以直接从您的训练数据中计算出:1)每个类别的概率;
2)给定每个x值的每个类别的条件概率。开始计算,概率模型可用于使用贝叶斯定理对新数据进行预测。当你的数据是实值时,通常会假设一个高斯分布(钟形曲线),以便可以轻松地估计这些概率。
6 - K近邻
KNN算法非常简单且非常有效。KNN的模型表示是整个训练数据集。简单吧?通过搜索整个训练集中的K个最相似实例并汇总这K个实例的输出变量,可以对新数据点进行预测。对于回归问题,这可能是平均输出变量,对于分类问题,这可能是最常见的类别值。诀窍在于如何确定数据实例之间的相似性。如果您的属性都具有相同的比例(例如,都是距离数据),最简单的方法是使用欧几里得距离,您可以根据每个输入变量之间的差异直接计算一个数字。
7- 矢量化学习
K最近的缺点是需要整个训练数据集。学习向量量化算法(简称LVQ)是一种人工神经网络算法,可让选择要需要的训练实例数量。学习之后,可以像使用K近邻一样,使用数据进行预测。通过计算每个向量与新数据实例之间的距离,可以找到最相似的数据向量(最佳匹配的向量)。然后返回最佳匹配的类值作为预测。记得数据归一化,获得的效果更好。
8-支持向量机
支持向量机可能是最受欢迎的机器学习算法之一。超平面是分割输入变量空间的线。在SVM中,选择一个超平面以按类别(类别0或类别1)最好地分隔输入变量空间中的点。
在二维图中,您可以将其可视化为一条线,并假设所有输入点都可以被这条线完全隔开。SVM学习算法找到超平面对类进行最佳分离的系数。
仅这些点与定义超平面和分类器的构造有关。这些点称为支持向量。
在实践中,使用优化算法来找到使余量最大化的系数的值。SVM可能是功能最强大的即用型分类器之一,使用频率很高。
9-BAGGING和随机森林
随机森林是最流行,功能最强大的机器学习算法之一。这是一种称为Bootstrap聚类或BAGGING的集成机器学习算法。您需要对数据进行大量采样,计算平均值,然后对所有平均值取平均值,以便更好地估算真实平均值。在bagging中,使用相同的方法,但用于估计整个统计模型(最常见的是决策树)。获取训练数据的多个样本,然后为每个数据样本构建模型。当你需要对新数据进行预测时,每个模型都将进行预测,并对预测取平均值以对真实输出值进行更好的估计。10-BOOSTING和ADABOOST
星标⭐我们不迷路!想要文章及时到,文末“在看”少不了!
点击搜索你感兴趣的内容吧
往期推荐
数据Seminar
这里是大数据、分析技术与学术研究的三叉路口
欢迎扫描👇二维码添加关注